F8: Transformationer och multipel linjär regression
Vi har introducerat enkel linjär regression, och beskrivit hur vi kan skatta, tolka, och använda en linjär regressionsmodell
Vi har tittat på olika sätt att utvärdera en modell, och kontrollera modellantaganden (m.h.a. t.ex. \(R^2\) och residualanalys)
Vi har även sagt att linjär regression lämpar sig för linjära samband (bild till höger), men inte för icke-linjära samband (bild till vänster)
Det kan även vara så att vi vill studera sambanden mellan en responsvariabel \(y\) och flera förklarande variabler, \(x_1, \ldots x_p\)
I sådana fall behöver vi använda multipel linjär regression, som vi också kommer ta upp idag
\[\widehat{\text{vilopuls}} = b_0 + b_1 \cdot \text{behandlingstid}\]
\[\widehat{\sqrt{\text{vilopuls}}} = b_0 + b_1 \cdot \log(\text{behandlingstid)}\]
lm()-funktionen i R, och få ut att\[\widehat{\sqrt{\text{vilopuls}}} = 8.394 - 0.314 \cdot \log(\text{behandlingstid)}\]
\[ \widehat{\sqrt{\text{vilopuls}}} = 8.394 - 0.314 \cdot 1.386 = 7.959 \]
| Transformation_av_responsvariabeln | Transformera_tillbaka |
|---|---|
| \(y \rightarrow y^2\) | \(\hat{y}=\sqrt{\hat{y}^2}\) |
| \(y \rightarrow y\) | \(\hat{y}=\hat{y}\) |
| \(y \rightarrow \sqrt{y}\) | \(\hat{y}=\left(\widehat{\sqrt{y}}\right)^2\) |
| \(y \rightarrow \log(y)\) | \(\hat{y}=e^{\widehat{\log(y)}}\) |
\[ \hat{y} = b_0 + b_1 x_1 + b_2 x_2 \]
\[ \widehat{\text{jordgubsskörd}} \; \; = b_0 + b_1 \cdot \text{lufttemperatur} + b_2 \cdot \text{näringsnivå} \]
\[ \hat y = b_0 + b_1 x_1 + b_2 x_2 + \ldots + b_k x_k \]
\[ \widehat{\text{litermil}} = b_0 + b_1 \cdot \text{vikt} + b_2 \cdot \text{hästkrafter} \]
Vi kan använda R för att hitta modellens koefficienter, dvs \(b_0\), \(b_1\) och \(b_2\)
Vi lägger till flera förklarande variabler m.h.a. plustecknet
\[ \widehat{\text{litermil}} = 0.149 + 0.598 \cdot \text{vikt} + 0.00177 \cdot \text{hästkrafter} \]
\[ \sum_{i=1}^n e_i^2, \;\;\;\;\;\;\;\; e_i^2 = (y_i - \hat{y})^2 \]
\[ \hat{y} = b_0 + b_1 x_1 + b_2 x_2 + ... + b_k x_k \]
\[R_{\text{adj}}^2 = 1 - \cfrac{(1 - R^2)(n-1)}{n-k-1}\]
| Bara vikt | Vikt och hp | |
|---|---|---|
| \(R^2_{\text{adj}}\) | 0.79 | 0.84 |
Tolkningen av koefficienterna ändras inte mycket, men det finns en liten skillnad som är viktig att ha med sig
Enkel linjär regression: \(\hat{y}\) ökar med \(b_1\) enheter då \(x\) ökar med en enhet
I multipel linjär regression säger vi att \(\hat{y}\) ökar med \(b_j\) enheter då \(x_j\) ökar med en enhet, givet att värdet på övriga förklaringsvariabler hålls konstant
Den sista delen av tolkningen krävs för att tolkningen ska vara korrekt
Om vi ändrar flera variabler samtidigt kan deras effekter på \(\hat y\) förstärka eller ta ut varandra, och tolkningen av ett enskilt \(b_j\) blir då skev
Om \(b_j\) är negativt får vi en “negativ ökning” i \(\hat{y}\) när \(b_j\) ökar – med andra ord får vi en minskning i \(\hat y\)
Vi har följande koefficienter i vår multipla regressionsmodell
\[\widehat{\text{sparande}} = 8.206 + 0.375 \cdot \text{boendekostnad}\]
Vi har modellen \[ \widehat{\text{sparande}} = 8.206 + 0.375 \cdot \text{boendekostnad} \]
För varje ytterligare krona en person lägger på boendet per år uppskattar vår modell att personen sparar ytterligare 0.375 kronor per år
\[\widehat{\text{sparande}} = -71.7 {\color{red}{-0.089}} \cdot \text{boendekostnad} + 0.196 \cdot \text{inkomst}\]
\[\widehat{\text{sparande}} = 8.206 + 0.375 \cdot \text{boendekostnad}\]
\[\widehat{\text{sparande}} = -71.7 - 0.089 \cdot \text{boendekostnad} + 0.196 \cdot \text{inkomst}\]
Båda modellerna ger logiska resultat, eftersom de beskriver två olika scenarier
Regression 1:
Regression 2:
Vi tittar på ett exempel till, där vi skattar skattar huspriser (i dollar)
Regressionsmodell 1 har antalet sovrum som enda förklaringsvariabel
\[\widehat{\text{price}} = 338.975 + 40.234 \cdot \text{bedroom}\]
\[\widehat{\text{price}} = 308.100 + 135 \cdot \text{living area} - 43.347 \cdot \text{bedroom}\]
Enligt den andra modellen kostar hus med många sovrum mindre än hus med få sovrum, givet husets storlek
Om två hus är lika stora uppskattar vi alltså att det hus som har färre sovrum är dyrare
Det skulle kunna bero på att huset med färre sovrum har större kök, större vardagsrum, osv
\[s_e = \sqrt{\cfrac{\sum e^2}{n-k-1}}\]
Dessa slides skapades av Karl Sigfrid för kursen Statistik och Dataanalys I och har uppdaterats av Oskar Gustafsson och Valentin Zulj